30 research outputs found

    RI sociale: intégration de propriétés sociales dans un modèle de recherche

    Get PDF
    National audienceCet article propose une approche de recherche d'information, basée sur le contenu généré par l'utilisateur (CGU). Nos travaux se focalisent sur l'exploitation des CGUs dans la recherche des ressources web (pages, vidéos, etc). En particulier, nous nous intéressons à identifier, extraire et quantifier, à partir de plusieurs réseaux sociaux, certaines propriétés de ces CGUs, telles que la popularité et la confiance. Ces propriétés vont être intégrées dans un modèle de ranking. Plus précisément, nous proposons un modèle qui prend en considération ces propriétés sociales, en les combinant avec la pertinence thématique afin d'améliorer le tri des résultats renvoyés par un moteur de recherche. Nous avons évalué notre modèle sur une collection de test extraite du site Web "imdb.com". Les résultats obtenus montrent l'efficacité de notre modèle par rapport à la recherche d'information classique

    A Priori Relevance Based On Quality and Diversity Of Social Signals

    Get PDF
    International audienceSocial signals (users' actions) associated with web resources (documents) can be considered as an additional information that can play a role to estimate a priori importance of the resource. In this paper, we are particularly interested in: first, showing the impact of signals diversity associated to a resource on information retrieval performance; second, studying the influence of their social networks origin on their quality. We propose to model these social features as prior that we integrate into language model. We evaluated the effectiveness of our approach on IMDb dataset containing 167438 resources and their social signals collected from several social networks. Our experimental results are statistically significant and show the interest of integrating signals diversity in the retrieval process

    Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux

    Get PDF
    National audienceLes signaux sociaux associés aux ressources Web peuvent être considérés comme une information additionnelle qui peut jouer un rôle pour mesurer une importance a priori de la ressource indépendamment de la requête. Dans cet article, nous nous intéressons particulièrement à la temporalité associée à ces signaux ainsi que leur diversité. Nous supposons que l'importance a priori d'un document (ressource) dépend non seulement de la qualité de ces signaux mais aussi de la date de leurs créations, la date de création de la ressource ainsi que leur diversité. De ce fait, plutôt que d'estimer cette importance (probabilité) a priori par un simple comptage des signaux liés au document, nous intégrons également les dates de création de la ressource, pour ne pas pénaliser les nouvelles ressources, et des actions, ainsi qu'un facteur de diversité de ces signaux. Nous évaluons l'efficacité de notre approche sur la collection d'IMDb contenant 167438 ressources et leurs données sociales collectées à partir de plusieurs réseaux sociaux. Nos expériences montrent l'intérêt des signaux sociaux temporellement sensibilisés à la sélection des ressources pertinentes

    Exploitation de signaux sociaux pour estimer la pertinence a priori d'une ressource

    Get PDF
    National audienceDans cet article nous proposons une approche de recherche d'information (RI) qui prend en compte le contenu social associé à une ressource pour mesurer sa pertinence a priori vis-à-vis d'une requête. Nous démontrons comment ces caractéristiques, qui sont sous forme d'actions relevant d'activités sociales (signaux sociaux) tels que le nombre de "j'aime" et de "partage", peuvent être combinées pour quantifier des propriétés sociales telles que la popularité et la réputation. Nous proposons de modéliser ces propriétés comme des probabilités a priori que nous intégrons dans un modèle de langue. Nous avons évalué l'efficacité de notre approche sur la collection d'IMDb contenant 32706 documents et leurs caractéristiques sociales collectées sur plusieurs réseaux sociaux. Nos résultats expérimentaux sont très prometteurs et montrent l'intérêt de l'intégration des propriétés sociales dans un modèle de recherche pour améliorer la RI

    Multimodal Social Book Search

    Get PDF
    International audienceToday's information retrieval applications have become increasingly complex. The Social Book Search (SBS) lab at CLEF 2015 allows evaluating retrieval methods on a complex search task with several textual and non-textual meta-data fields. The challenge is to incorporate the different information types (modalities) into a single ranked list. We build a strong textual baseline and combine it with a document prior based on social signals. Further, we include non-textual modalities in relation to the user preferences using random forest learning to rank. Our experiments show that both the social document prior and the learning to rank approach improve the search results

    DĂ©tection de contradiction dans les commentaires

    Get PDF
    L'analyse des avis (commentaires) générés par les utilisateurs devient de plus en plus exploitable par une variété d'applications. Elle permet de suivre l'évolution des avis ou d'effectuer des enquêtes sur des produits. La détection d'avis contradictoires autour d'une ressource Web (ex. cours, film, produit, etc.) est une tâche importante pour évaluer cette dernière. Dans cet article, nous nous concentrons sur le problème de détection des contradictions et de la mesure de leur intensité en se basant sur l'analyse du sentiment autour des aspects spécifiques à une ressource (document). Premièrement, nous identifions certains aspects, selon les distributions des termes émotionnels au voisinage des noms les plus fréquents dans l'ensemble des commentaires. Deuxièmement, nous estimons la polarité de chaque segment de commentaire contenant un aspect. Ensuite, nous prenons uniquement les ressources contenant ces aspects avec des polarités opposées (positive, négative). Troisièmement, nous introduisons une mesure de l'intensité de la contradiction basée sur la dispersion conjointe de la polarité et du rating des commentaires contenant les aspects au sein de chaque ressource. Nous évaluons l'efficacité de notre approche sur une collection de MOOC (Massive Open Online Courses) contenant 2244 cours et leurs 73873 commentaires, collectés à partir de Coursera. Nos résultats montrent l'efficacité de l'approche proposée pour capturer les contradictions de manière significative

    Harnessing Social Signals to Enhance a Search

    Get PDF
    National audienceThis paper describes an approach of information retrieval which takes into account social signals associated with Web resources to estimate its relevance to a query. We show how these data, which are in the form of actions within social activities (e.g. like, tweet), can be exploited to quantify social properties such as popularity and reputation. We propose a model that combines the social relevance, estimated from these properties, with the conventional textual relevance. We evaluated the effectiveness of our approach on IMDb dataset containing 32706 resources and their social characteristics collected from several social networks. We used also the selected criteria to learn models to determine their effectiveness in information retrieval. Our experimental results are promising and show the interest of integrating social signals in retrieval model to enhance a search

    Users' Traces for Enhancing Arabic Facebook Search

    Get PDF
    International audienceThis paper proposes an approach on Facebook search in Arabic, which exploits several users' traces (e.g. comment, share, reactions) left on Facebook posts to estimate their social importance. Our goal is to show how these social traces (signals) can play a vital role in improving Arabic Facebook search. Firstly, we identify polarities (positive or negative) carried by the textual signals (e.g. comments) and non-textual ones (e.g. the reactions love and sad) for a given Facebook post. Therefore, the polarity of each comment expressed on a given Facebook post, is estimated on the basis of a neural sentiment model in Arabic language. Secondly, we group signals according to their complementarity using features selection algorithms. Thirdly, we apply learning to rank (LTR) algorithms to re-rank Facebook search results based on the selected groups of signals. Finally, experiments are carried out on 13,500 Facebook posts, collected from 45 topics in Arabic language. Experiments results reveal that Random Forests combined with ReliefFAttributeEval (RLF) was the most effective LTR approach for this task

    2SRM: Learning social signals for predicting relevant search results

    No full text
    International audienceSearch systems based on both professional meta-data (e.g., title, description, etc.) and social signals (e.g., like, comment , rating, etc.) from social networks is the trending topic in information retrieval (IR) field. This paper presents 2SRM (Social Signals Relevance Model), an approach of IR which takes into account social signals (users' actions) as an additional information to enhance a search. We hypothesize that these signals can play a role to estimate a priori social importance (relevance) of the resource (document). In this paper, we first study the impact of each such signal on retrieval performance. Next, some social properties such as popularity, reputation and freshness are quantified using several signals. The 2SRM combines the social relevance, estimated from these social signals and properties, with the conventional textual relevance. Finally, we investigate the effect of the social signals on the retrieval effectiveness using state-of-the-art learning approaches. In order to identify the most effective signals, we adopt feature selection algorithms and the correlation between the signals. We evaluated the effectiveness of our approach on both IMDb (Internet Movie Databese) and SBS (Social Book Search) datasets containing movies and books resources and their social characteristics collected from several social networks. Our experimental results are statistically significant, and reveal that incorporating social signals in retrieval model is a promising approach for improving the retrieval performance

    Recherche d'information sociale : exploitation des signaux sociaux pour améliorer la recherche d'information

    Get PDF
    Our work is in the context of social information retrieval (SIR) and focuses on the exploitation of user-generated content in the process of seeking information. The Usergenerated content, or UGC, refers to a set of data (eg. social signals) whose content is mainly produced either directly influenced by end users. It is opposed to the traditional content produced, sold or distributed by professionals. The term became popular since 2005, in the Web 2.0 environments and in new social media. This movement reflects the democratization of the means of production and interaction in the web thanks to new technologies. Among these means more and more accessible to a wide public, we can cite social networks, blogs, microblogs, wikis, etc. The majority of information retrieval (IR) systems exploit two classes of features to rank documents in response to user's query. The first class, the most used one, is querydependent, which includes features corresponding to particular statistics of query terms such as term frequency, and term distribution within a document or in the collection of documents. The second class, referred to as documents prior, corresponds to queryindependent features such as the number of incoming links to a document, PageRank, topical locality, presence of URL, document authors, etc. One of the important sources which can also be used to measure the a priori interest of Web resources is social data (signals) associated with Web resource resulting from user interaction with this resource. These interactions representing annotations, comments or votes, produce useful and interesting social information that characterizes a resource in terms of popularity and reputation. Major search engines integrate social signals (e.g. Google, Bing). Searchmetrics1 showed that it exists a high correlation between social signals and the rankings provided by search engines such Google. We propose an approach that exploits social signals generated by users on the resources to estimate a priori relevance of a resource. This a priori knowledge is combined with topical relevance modeled by a language modeling (LM) approach. We also hypothesize that signals are time-dependent, the date when the user action has happened is important to distinguish between recent and old signals. Therefore, we assume that the recency of signals may indicate some recent interests to the resource, which may improve the a priori relevance of document. Secondly, number of signals of a resource depends on the resource age. Generally, an old resource may have much more signals than a recent one. We introduce the time-aware social approach that incorporates temporal characteristics of users' actions as prior in the retrieval model. Precisely, instead of assuming uniform document priors in this retrieval model, we assign document priors based on the signals associated to that document biased by both the creation date of the signals and the age of the document.Notre travail se situe dans le contexte de recherche d'information sociale (RIS) et s'intéresse plus particulièrement à l'exploitation du contenu généré par les utilisateurs dans le processus de la recherche d'information. Le contenu généré par les utilisateurs (en anglais User-generated content, ou UGC) se réfère à un ensemble de données (ex. signaux sociaux) dont le contenu est principalement, soit produit, soit directement influencé par les utilisateurs finaux. Il est opposé au contenu traditionnel produit, vendu ou diffusé par les professionnels. Le terme devient populaire depuis l'année 2005, dans les milieux du Web 2.0, ainsi que dans les nouveaux médias sociaux. Ce mouvement reflète la démocratisation des moyens de production et d'interaction dans le Web grâce aux nouvelles technologies. Parmi ces moyens de plus en plus accessibles à un large public, on peut citer les réseaux sociaux, les blogs, les microblogs, les Wikis, etc. Les systèmes de recherche d'information exploitent dans leur majorité deux classes de sources d'évidence pour trier les documents répondant à une requête. La première, la plus exploitée, est dépendante de la requête, elle concerne toutes les caractéristiques relatives à la distribution des termes de la requête dans le document et dans la collection (tf-idf). La seconde classe concerne des facteurs indépendants de la requête, elle mesure une sorte de qualité ou d'importance a priori du document. Parmi ces facteurs, on en distingue le PageRank, la localité thématique du document, la présence d'URL dans le document, ses auteurs, etc. Une des sources importantes que l'on peut également exploiter pour mesurer l'intérêt d'une page Web ou de manière générale une ressource, est le Web social. En effet, grâce aux outils proposés par le Web 2.0 les utilisateurs interagissent de plus en plus entre eux et/ou avec les ressources. Ces interactions (signaux sociaux), traduites par des annotations, des commentaires ou des votes associés aux ressources, peuvent être considérés comme une information additionnelle qui peut jouer un rôle pour mesurer une importance a priori de la ressource en termes de popularité et de réputation, indépendamment de la requête. Nous supposons également que l'impact d'un signal social dépend aussi du temps, c'est-à-dire la date à laquelle l'action de l'utilisateur est réalisée. Nous considérons que les signaux récents devraient avoir un impact supérieur vis-à-vis des signaux anciens dans le calcul de l'importance d'une ressource. La récence des signaux peut indiquer certains intérêts récents à la ressource. Ensuite, nous considérons que le nombre de signaux d'une ressource doit être pris en compte au regard de l'âge (date de publication) de cette ressource. En général, une ressource ancienne en termes de durée d'existence a de fortes chances d'avoir beaucoup plus de signaux qu'une ressource récente. Ceci conduit donc à pénaliser les ressources récentes vis-à-vis de celles qui sont anciennes. Enfin, nous proposons également de prendre en compte la diversité des signaux sociaux au sein d'une ressource
    corecore